我们提出了一项合成任务,乐高(学习平等和小组操作),该任务封装了遵循推理链的问题,我们研究了变压器体系结构如何学习这项任务。我们特别注意数据效应,例如预处理(看似无关的NLP任务)和数据集组成(例如,训练和测试时间时的链长度不同),以及体系结构变体,例如重量绑定层或添加卷积组件。我们研究了受过训练的模型最终如何在任务中取得成功,尤其是我们能够在某种程度上(一定程度地)理解一些注意力头以及网络中的信息如何流动。基于这些观察结果,我们提出了一个假设,即在这里进行预训练仅是因为是智能初始化而不是网络中存储的深层知识。我们还观察到,在某些数据制度中,受过训练的变压器发现“快捷方式”解决方案遵循推理链,这阻碍了该模型将其推广到主要任务的简单变体的能力,而且我们发现人们可以防止适当的快捷方式架构修改或仔细的数据准备。在我们的发现的激励下,我们开始探索学习执行C程序的任务,在此过程中,对变压器进行了卷积修改,即在密钥/查询/值图中添加卷积结构,显示出令人鼓舞的优势。
translated by 谷歌翻译
在稀疏制度中,我们迈出了概括随机块模型理论的第一步,该模型将离散的社区结构被基本几何形状取代。我们考虑在均匀度量空间上的几何随机图,其中要连接两个顶点的概率是距离的任意函数。我们提供了足够的条件,在稀疏制度中,可以回收位置(最多是空间的同构)。此外,我们根据苔藓和佩雷斯(Mossel and Peres)定义了信息流模型的几何对应物,在该模型中,人们认为在球面上考虑了分支随机行走,目标是根据基于树叶。我们给出了一些足够的条件,可以在此模型中提供渗透和不变信息。
translated by 谷歌翻译
Light is a complex-valued field. The intensity and phase of the field are affected by imaged objects. However, imaging sensors measure only real-valued non-negative intensities. This results in a nonlinear relation between the measurements and the unknown imaged objects. Moreover, the sensor readouts are corrupted by Poissonian-distributed photon noise. In this work, we seek the most probable object (or clear image), given noisy measurements, that is, maximizing the a-posteriori probability of the sought variables. Hence, we generalize annealed Langevin dynamics, tackling fundamental challenges in optical imaging, including phase recovery and Poisson (photon) denoising. We leverage deep neural networks, not for explicit recovery of the imaged object, but as an approximate gradient for a prior term. We show results on empirical data, acquired by a real experiment. We further show results of simulations.
translated by 谷歌翻译
This paper proposes a generalizable, end-to-end deep learning-based method for relative pose regression between two images. Given two images of the same scene captured from different viewpoints, our algorithm predicts the relative rotation and translation between the two respective cameras. Despite recent progress in the field, current deep-based methods exhibit only limited generalization to scenes not seen in training. Our approach introduces a network architecture that extracts a grid of coarse features for each input image using the pre-trained LoFTR network. It subsequently relates corresponding features in the two images, and finally uses a convolutional network to recover the relative rotation and translation between the respective cameras. Our experiments indicate that the proposed architecture can generalize to novel scenes, obtaining higher accuracy than existing deep-learning-based methods in various settings and datasets, in particular with limited training data.
translated by 谷歌翻译
近年来,文本发现的主要范例是将文本检测和识别的任务结合到一个端到端的框架中。在此范式下,这两个任务都是通过从输入图像中提取的共享全局特征图操作来完成的。端到端方法面临的主要挑战之一是识别跨音阶变化(较小或较大的文本)和任意单词旋转角的文本时的性能退化。在这项工作中,我们通过提出一种新型的全球到本地关注机制来解决这些挑战,用于文本斑点,称为玻璃,将全球和本地特征融合在一起。全局功能是从共享骨干线中提取的,从整个图像中保留上下文信息,而本地功能则在调整大小的高分辨率旋转的单词作物上单独计算。从当地农作物中提取的信息减轻了尺度和单词旋转的许多固有困难。我们显示了跨音阶和角度的性能分析,突出了尺度和角度的肢体的改善。此外,我们引入了一个方向感知的损失项,以监督检测任务,并显示其对所有角度的检测和识别性能的贡献。最后,我们通过将玻璃纳入其他领先的文本发现架构,改善其文本斑点性能来表明玻璃是一般的。我们的方法在包括新发布的Textocr在内的多个基准上实现了最新的结果。
translated by 谷歌翻译
为了使机器人能够实现高级目标,工程师通常会编写应用现有专业技能的脚本,例如导航,对象检测和操纵以实现这些目标。编写好的脚本是具有挑战性的,因为它们必须智能平衡物理机器人的动作和传感器的固有随机性以及它拥有的有限信息。原则上,AI计划可用于应对这一挑战并自动生成良好的行为策略。但这需要通过三个障碍。首先,AI必须了解每个技能对世界的影响。其次,我们必须弥合了解技能的作用和其代码中使用的低级状态变量之间更抽象的级别之间的差距。第三,将所有组件绑在一起需要大量的集成工作。我们描述了一种将机器人技能集成到工作的自主机器人控制器中的方法,该机器人的机器人控制器计划其技能以完成指定任务并具有四个关键优势。 1)使用概率编程语言中的想法,我们的生成技能文档语言(GSDL)使代码文档更简单,紧凑,更具表现力。 2)表达抽象映射(AM)桥接了低级机器人代码和抽象AI计划模型之间的差距。 3)控制器可以使用任何正确记录的技能,而无需任何额外的编程工作,提供插头的经验。 4)POMDP求解器计划执行技能,同时适当地平衡了部分可观察性,随机行为和嘈杂的传感。
translated by 谷歌翻译
在本文中,我们提出了一种用于几个样本监督功能选择(FS)的新方法。我们的方法首先使用捕获多功能关联的内核来了解每个类的特征空间的歧视。然后,基于Riemannian几何形状,计算复合内核,从而提取了学习的特征关联之间的差异。最后,提出了基于光谱分析的FS分数。考虑多功能关联使我们的方法逐个设计。反过来,这允许提取特征基础的隐藏歧管,并避免过度拟合,从而促进少量样本FS。我们展示了我们方法在说明性示例和几个基准测试方面的功效,在其中我们的方法在选择与竞争方法相比选择信息性特征的准确性更高。此外,我们表明,当应用于测试数据时,我们的FS会导致改进的分类和更好的概括。
translated by 谷歌翻译
文本生成模型已成为许多研究任务,尤其是句子语料库的生成焦点。但是,了解自动生成的文本语料库的属性仍然具有挑战性。我们建议一组检查生成文本语料库的属性的工具。将这些工具应用于各种生成的语料库中,使我们能够对生成模型的属性获得新的见解。作为我们特征过程的一部分,我们发现了两种主要生成技术产生的语料库存在显着差异。
translated by 谷歌翻译
虽然神经语言模型往往对自然语言理解(NLU)任务进行令人惊讶的令人惊讶,但它们的优势和局限性仍然很差。因此,受控的合成任务是用于诊断模型行为的越来越重要的资源。在这项工作中,我们专注于讲故事的理解,是NLU系统的核心竞争力。然而,讲故事的主要综合资源是Babi基准,缺乏可控任务生成的这种系统机制。我们开发Dyna-Babi,一种动态框架,提供对Babi中的任务生成的细粒度控制。我们通过构建一个组成概括的三项新任务来展示我们的想法,这是来自原始基准的重要评估设置。我们测试了为BABI开发的专用模型以及最先进的预训练方法,发现这两种方法都解决了原始任务(> 99%的精度),并且在组成泛化设置中都没有成功地成功地成功,表示原始培训数据的局限性。我们探索了增加原始数据的方法,发现,尽管多样化培训数据比简单地增加数据集尺寸更有用,但它仍然不足以驾驶鲁棒成分泛化(具有<70%的复杂组合物的精度)。我们的结果强调了高度可控任务发生器通过模型和数据开发的良性循环创建强大的NLU系统的重要性。
translated by 谷歌翻译
基于多维时间序列预测的歧管学习,我们解决了三层数值框架。在第一步,我们使用诸如局部线性嵌入和扩散图的非线性歧管学习算法将时间序列嵌入到降低的低维空间中。在第二步,我们在歧管中构建倒计阶回归模型,特别是多变量自回归(MVAR)和高斯过程回归(GPR)模型,以预测嵌入式动态。在最后一步,我们使用径向基函数插值和几何谐波将嵌入的时间序列抬回原始的高维空间。对于我们的插图,我们使用四组时间序列测试所提出的数值方案的预测性能:三种合成随机等于具有不同模型订单的线性和非线性随机模型的EEG信号,以及包含每日时间的一个真实数据集跨越时间段03 / 09/2001-29 / 10/2020的10个关键外汇汇率(外汇)系列。使用歧管学习,建模和提升方法的组合评估所提出的数值方案的预测性能。我们还提供与主成分分析算法以及天真随机步道模型的比较,以及培训的MVAR和GPR模型直接在高维空间中实现。
translated by 谷歌翻译